We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
在阻止印尼自然语言处理(NLP)研究进步的基本问题的中心,我们发现数据稀缺。印尼语言,尤其是当地语言的资源极为稀缺和代表性不足。许多印尼研究人员没有发布其数据集。此外,我们拥有的少数公共数据集散布在不同的平台上,因此使印尼NLP的可重复性和以数据为中心的研究更加艰巨。面对这一挑战,我们开始了第一个印尼NLP众包努力,Nusacrowd。Nusacrowd努力为所有印尼语言中的NLP任务提供标准化数据加载,以提供最大的数据表聚合。通过使印尼NLP资源的开放式和集中式访问能力,我们希望Nusacrowd可以解决阻碍印度尼西亚NLP进展的数据稀缺问题,并将NLP从业者带来合作。
translated by 谷歌翻译
自2020年初以来,Covid-19-19造成了全球重大影响。这给社会带来了很多困惑,尤其是由于错误信息通过社交媒体传播。尽管已经有几项与在社交媒体数据中发现错误信息有关的研究,但大多数研究都集中在英语数据集上。印度尼西亚的COVID-19错误信息检测的研究仍然很少。因此,通过这项研究,我们收集和注释印尼语的数据集,并通过考虑该推文的相关性来构建用于检测COVID-19错误信息的预测模型。数据集构造是由一组注释者进行的,他们标记了推文数据的相关性和错误信息。在这项研究中,我们使用印度培训预培训的语言模型提出了两阶段分类器模型,以进行推文错误信息检测任务。我们还尝试了其他几种基线模型进行文本分类。实验结果表明,对于相关性预测,BERT序列分类器的组合和用于错误信息检测的BI-LSTM的组合优于其他机器学习模型,精度为87.02%。总体而言,BERT利用率有助于大多数预测模型的更高性能。我们发布了高质量的Covid-19错误信息推文语料库,用高通道一致性表示。
translated by 谷歌翻译
Fast timescale state estimation for a large power system can be challenging if the sensors producing the measurements are few in number. This is particularly true for doing time-synchronized state estimation for a transmission system that has minimal phasor measurement unit (PMU) coverage. This paper proposes a Deep Neural network-based State Estimator (DeNSE) to overcome this extreme unobservability problem. For systems in which the existing PMU infrastructure is not able to bring the estimation errors within acceptable limits using the DeNSE, a data-driven incremental PMU placement methodology is also introduced. The practical utility of the proposed approach is demonstrated by considering topology changes, non-Gaussian measurement noise, bad data detection and correction, and large system application.
translated by 谷歌翻译
Neglected tropical diseases (NTDs) continue to affect the livelihood of individuals in countries in the Southeast Asia and Western Pacific region. These diseases have been long existing and have caused devastating health problems and economic decline to people in low- and middle-income (developing) countries. An estimated 1.7 billion of the world's population suffer one or more NTDs annually, this puts approximately one in five individuals at risk for NTDs. In addition to health and social impact, NTDs inflict significant financial burden to patients, close relatives, and are responsible for billions of dollars lost in revenue from reduced labor productivity in developing countries alone. There is an urgent need to better improve the control and eradication or elimination efforts towards NTDs. This can be achieved by utilizing machine learning tools to better the surveillance, prediction and detection program, and combat NTDs through the discovery of new therapeutics against these pathogens. This review surveys the current application of machine learning tools for NTDs and the challenges to elevate the state-of-the-art of NTDs surveillance, management, and treatment.
translated by 谷歌翻译
自然语言和生物学序列之间的明显相似之处已导致最新的深层语言模型(LMS)在抗体和其他生物学序列分析中的应用激增。但是,缺乏对生物序列语言的严格语言形式化,这些语言将定义基本组成部分,例如词典(即语言的离散单元)和语法(即,将序列序列良好的规则,结构和结构和结构和结构和结构链接的规则链接在一起含义)导致了LMS的主要域无规定应用,这些应用未考虑研究的生物序列的基础结构。另一方面,语言形式化为LM应用建立了语言信息,因此适应域的组件。它将有助于更好地理解自然语言和生物序列之间的差异和相似性如何影响LMS的质量,这对于具有可解释的模型具有可解释的模型至关重要。解密抗体特异性规则对于加速有理和硅生物治疗药物设计至关重要。在这里,我们将抗体语言的特性形式化,因此不仅建立了语言工具在适应性免疫受体分析中应用的基础,而且还为免疫受体特异性的系统免疫语言学研究提供了基础。
translated by 谷歌翻译
基于神经网络的深层语言模型(LMS)越来越多地应用于大规模蛋白质序列数据以预测蛋白质功能。然而,作为黑框模型,当前的蛋白质LM方法并不促进对序列功能映射的基本理解,而阻碍了基于规则的生物治疗药物开发,因此目前的蛋白质LM方法不大。我们认为,从语言学中得出的指导是从自然语言数据中提取分析规则的领域,可以帮助构建学习相关领域特定规则的更容易解释的蛋白质LM。与自然语言LMS相比,蛋白质序列数据和语言序列数据之间的差异需要在蛋白质LMS中集成更多的域特异性知识。在这里,我们为培训数据,令牌化,令牌嵌入,序列嵌入和模型解释提供了基于语言学的路线图。将语言学与蛋白质LMS结合起来,可以发展下一代可解释的机器学习模型,并有可能发现序列功能关系基础的生物学机制。
translated by 谷歌翻译
在本文中,我们开发了多元回归模型和神经网络模型,以预测湍流热对流中的雷诺数(RE)和泡沫编号。我们将他们的预测与早期模型的对流模型进行比较:Grossmann-Lohse〜[物理。rev. lett。\ textbf {86},3316(2001)],修订了Grossmann-LoHse〜[phys。Fluids \ TextBF {33},015113(2021)]和Pandey-Verma [物理。Rev. E \ TextBF {94},053106(2016)]模型。我们观察到,尽管对所有模型的预测相互接近,但在本工作中开发的机器学习模型提供了与实验性和数值结果的最佳匹配。
translated by 谷歌翻译
深度学习(DL)逆技术增加了人工电磁材料(AEM)设计的速度,提高了所得装置的质量。许多DL逆技术在多个AEM设计任务中成功地成功,但要比较,对比度和评估各种技术,澄清逆问题的潜在弊端是至关重要的。在这里,我们审查最先进的方法,并对深度学习逆方法进行全面调查,对AEM设计进行深度学习逆方法和可逆和有条件可逆的神经网络。我们可以轻松访问和快速可实现的AEM设计基准,该基准提供了一种有效地确定最适合解决不同设计挑战的DL技术的方法。我们的方法是通过对重复模拟的限制和易于集成度量的限制,我们提出的是任何AEM设计问题的相对弊端。我们表明,由于问题变得越来越弊,无论模拟约束如何,带有边界损耗(NA)的神经伴随都会产生更好的解决方案。在简单的AEM设计任务中,当模拟有限时,直接神经网络(NN)更好,而混合密度网络(MDN)和条件变化自动编码器(VAE)预测的几何形状可以通过持续的采样和重新模拟来改进。
translated by 谷歌翻译
虽然生成的对抗网络(GaN)是他们对其更高的样本质量的流行,而与其他生成模型相反,但是它们遭受同样困难的产生样本的难度。必须牢记各个方面,如产生的样本的质量,课程的多样性(在课堂内和类别中),使用解除戒开的潜在空间,所述评估度量的协议与人类感知等。本文,我们提出了一个新的评分,即GM分数,这取得了各种因素,如样品质量,解除戒备的代表,阶级,级别的阶级和级别多样性等各种因素,以及诸如精确,召回和F1分数等其他指标用于可怜的性深度信仰网络(DBN)和限制Boltzmann机(RBM)的潜在空间。评估是针对不同的GANS(GAN,DCGAN,BIGAN,CGAN,CONFORDGON,LSGAN,SGAN,WAN,以及WGAN改进)的不同GANS(GAN,DCGAN,BIGAN,SCAN,WANT)在基准MNIST数据集上培训。
translated by 谷歌翻译